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Hi 要 : 问题 分 类 是 问答 系统 问题 分 析 研 究 的 基础 组 成 部 分 ， 其 精度 直接 影响 自然 语言 理解 效果 的 好 坏 。 针 对 问 句 文 
本 通常 较 短 、 语 义 信 息 与 词语 共 现 信息 不 足 等 问题 ， 提 出 一 种 多 层级 注意 力 卷 积 长 短 时 记忆 模型 (multi-level attention 
convolution LSTM neural network , MAC-LSTM) 的 问题 分 类 方法 。 相 比 基 于 词 瞪 入 的 深度 学 习 模型 ， 该 方法 使 用 疑 
问 词 注意 力 机 制 对 问 提 中 的 疑问 词 特征 重点 关注 。 同 时 ， 使 用 注意 力 机 制 结合 卷 积 神经 网 络 与 长 短 时 记忆 模型 各 自 文 
本 建 模 的 优势 ， 既 能 够 并 行 方式 提取 词汇 级 特征 ， 又 能 够 学 习 更 高 级 别 的 长 距离 依赖 特征 。 实 验 表明 ， 该 方法 较 传 统 
的 机 器 学 习 方法 和 普通 的 卷 积 神经 网 络 、 长 短 时 记忆 模型 有 明显 的 效果 提升 。 
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Question classification based on MAC-LSTM 
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(a. School of Management, b. Key Laboratory of Process Optimization & Intelligent Decision-making of Ministry of Education, 
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Abstract: Question classification is the basic part of the research on question answering system. Its accuracy directly affects the 


quality of natural language understanding. Most of the question classification methods are based on supervised learning 


algorithms which require word embedding and does not consider the interrogative features. However, question text is usually 


short and the information of semantic information and word co-occurrence are not enough. To address the above problems, this 


paper proposes a multi-level attention convolution LSTM neural network (MAC-LSTM) for question classification. This 


approach uses the interrogative word attention mechanism to focus on the interrogative features in the heterogeneous question 


contexts. At the same time, using the attention mechanism combined with the advantages of convolutional neural network and 


long-short memory model recurrent neural network (LSTM) . MAC-LSTM is able to capture both local features of phrases as 


well as global and temporal sentence semantics. Experiments show that, our approach achieves better performance than 


traditional machine learning method, ordinary convolutional neural network, and traditional LSTM on question classification 


tasks without the need of prior knowledge. 


Key words: question answering; question classification; attention mechanism; interrogative attention mechanism; convolutional 


neural networks; LSTM 
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也 点 的 问题 ， 后 续 答案 抽取 时 只 需要 匹配 


型 实体 即 可 ， 准 确 有 效 地 提升 了 问答 精度 


， 问 题 分 类 还 可 以 为 问答 模式 的 选择 策略 提供 依 


成 答案 的 时 候 应 该 侧重 于 对 实体 特 生 


据 。 例 如 “正宗 徽 全 的 特点 是 什么 ? ”是 


个 描述 类 问题 ， 生 


答案 知 让 


0 引言 
候选 答案 中 的 
问答 系统 (question and answering, QA) 是 信息 检索 领域 的 热 ” 句 。 与 此 同时 
门 研 完 领域 之 一 ， 能 够 为 用 户 提出 的 自然 语言 问题 提供 一 个 简 
明 、 准 确 的 答案 ， 较 好 地 满足 了 用 户 快速 、 精 准 地 获取 信息 的 
需求 止 。 问 答 系 统 的 处 理 流 程 主要 包括 四 步 , 即 问 题 分 类 、 语义 户 最 想 获取 的 
里 解 、 文 本 检索 、 答 案 抽取 外 。 其 中 ,问题 分 类 通过 确定 问题 的 与 一 般 的 文本 
标 答案 类 型 ， 可 以 为 后 续 信 息 检索 和 答案 抽取 提供 语义 限制 。 a) 问 句 中 的 疑问 词 与 
和 约束 ， 缩 小 候选 答案 的 查找 范围 。 例 如 ,“ 最 有 名 的 微 沫 馆 在 
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息 不 足 ， 且 具有 口语 化 、 歧 义 性 特征 。 现 有 的 问题 分 类 方法 主 注意 力 机 制 的 原理 是 仿照 人 脑 的 注意 力 思维 ， 通 过 自动 加 


要 是 基于 规则 的 方法 和 基于 机 器 学 习 的 方法 。 这 些 方法 都 没有 ” 权 的 方式 对 整体 信息 进行 局 部 重点 关注 ， 帮 助 深度 学 习 模 型 取 
考虑 问题 文本 语 料 的 特殊 性 ， 所 以 在 语义 层次 上 会 面临 数据 特 ”得 显著 的 精度 提升 0425。2014 年 ，Bahdanau 等 人 09 使 用 基于 
征 稀 玻 和 语义 敏感 问题 ， 取 疑 问 词 特征 困难 。 注意 力 机 制 的 循环 神经 网 络 来 解决 机 器 翻译 任务 ， 开 启 了 注意 
针对 以 上 问题 ,本文 将 深度 学 习 模 型 与 注意 力 机 制 相 结合 ， 力 机 制 在 自然 语言 处 理 领域 的 应 用 .Zhou 等 人 0 提出 了 双语 长 
提出 一 种 多 层次 注意 力 卷 积 长 短 时 记忆 模型 。 该 方法 使 用 疑问 ” 短 时 记忆 模型 的 层次 注意 力 机 制 来 解决 跨 语 言情 感 分 析 任 务 ， 
词 注 意 力 机 制 重点 关注 问 句 中 的 疑问 词 特征 ， 强 化 了 模型 的 疑 。 ”使 用 单词 级 注意 力 模 式 可 以 知道 每 个 句子 中 的 哪个 词 是 具有 决 
问 词 特征 抽取 能 力 。 同 时 ， 在 卷 积 层 与 LSTM 层 之 间 加 入 注意 。 定性 的 ， 而 句子 级 注意 力 模 式 学 习 哪些 句子 对 于 确定 整体 文档 


力 机 制 ， 使 模型 既 能 够 并 行 方式 提取 词汇 级 特征 ， 又 能 够 学 习 ”的 情绪 更 为 重要 。 另 外 ， 考 虑 到 卷 积 神经 网 络 在 短文 本 分 类 场 
更 高 级 别 的 长 距离 依赖 特征 。 景 中 的 优良 效果 ， 有 学 者 探究 了 注意 力 机 制 与 卷 积 神经 网 络 的 
结合 中 。 其 中 ， 文 献 [19] 通 过 注意 力 机 制 的 方法 将 用 户 和 产品 

1 工 
We 信息 与 文本 语义 信息 结合 ， 提 出 了 一 个 层次 化 卷 积 神经 网 络 。 
早期 的 问答 系统 面向 特定 领域 ， 强 调 特定 的 领域 知识 ， 所 该 方法 能 够 在 一 定 程度 减少 模型 参数 ， 并 使 得 文本 中 语义 信息 


以 问题 分 类 规则 需要 拥有 相关 背景 的 专家 制定 ,比如 Biswas 等 更 加 下 
人 四 针对 医疗 数据 抽取 固定 的 语法 模式 ， 然 后 利用 语法 模式 来 以 上 研究 成 果 促 使 人 们 从 间 题 分 类 领域 引用 注意 力 机 制 来 
判定 问题 类 别 。 这 种 手动 设计 的 特征 规则 需要 大 量 人 力 ， 并 且 ”衡量 特征 的 重要 性 ， 结 合 相关 模型 可 以 实现 特征 的 有 效 提取 。 
只 适用 于 特定 的 数据 集 ， 可 迁移 性 差 。 而 基于 机 器 学 习 的 问题 。 本 文 提 出 的 多 层级 注意 力 卷 积 长 短 时 记忆 模型 利用 卷 积 神经 网 
分 类 方法 具有 较 强 的 适用 性 ， 这 种 分 类 方法 的 研究 主要 把 精力 络 对 疑问 词 注 意 力矩 阵 提 取 局 部 特征 ， 并 结合 注意 力矩 阵 筛 选 
放 在 机 器 学 习 模 型 的 选择 和 特征 提取 上 面 ， 即 如 何在 较 短 的 问 ” 对 问题 分 类 最 相关 的 特征 映射 输入 给 双向 长 短 时 记忆 模型 。 此 
题 文本 上 面 抽取 特征 、 提 取出 浅 层 的 语义 信息 。 比 如 Li 等 人 名 外 ， 在 问答 领域 的 问题 分 类 任务 中 ， 疑 问 词 是 具有 重要 影响 的 
利用 双语 (英语 汉语 )、 句子 长 度 、 句子 音节 数 等 信息 作为 支持 特征。 为 了 有 效 提取 疑问 词 特征 ， 本 文 提出 了 一 种 基于 疑问 词 
向 量 机 模型 的 扩展 特征 ， 对 英文 句子 进行 分 类 并 取得 了 优良 效 。 ”的 注意 力 机 制 ， 通 过 构造 疑问 词 注 意 力 矩阵 强化 模型 对 疑问 词 
果 。 考 虑 到 问 句 中 疑问 词 的 重要 性 ，Hu 等 人 "提出 了 疑问 语义 ”特征 的 重点 关注 。 这 样 MAC-LSTM 同时 拥有 长 短 时 记忆 模型 
单元 的 概念 ， 并 结合 HOWNET 对 其 进行 语义 扩展 ， 在 开放 式 ”捕获 全 局 上 下 文 和 卷 积 神经 网 络 捕 获 问 句 局 部 特征 的 优势 ， 
问题 分 类 实验 中 达到 了 较 高 的 分 类 精确 度 。 但 是 基于 机 器 学 习 ” 拥有 了 对 疑问 词 等 重点 特征 的 抽取 能 
的 问题 分 类 算法 面临 着 数据 特征 稀疏 的 问题 ， 不 能 很 好 地 抽取 
文本 中 蕴含 的 语义 信息 ， 分 类 器 的 效果 仍然 有 待 提 
当前 ， 深 度 学 习 在 自然 语言 处 理 等 领域 取得 了 优秀 表现 ， 本 文 提 出 的 MAC-LSTM 模型 通过 两 个 层次 的 注意 力 机 制 
也 有 许多 学 者 利用 深度 学 习 技术 来 解决 问答 系统 问题 分 类 任 。 ”学习 问题 文本 的 疑问 词 特征 ， 有 效 提高 问题 分 类 的 准确 度 。 首 
务 。Li 等 人 外 将 卷 积 神经 网 络 应 用 于 知识 库 问答 系统 问题 分 类 ， ” 先 ， 在 模型 输入 层 引 入 疑问 词 注意 力 机 制 ， 通 过 疑问 词典 构建 
扩展 了 答案 文本 、 答 案 类 型 、 答 案 路 径 等 特征 来 学 习 问 题 的 疑问 词 注意 力矩 了 泗 ， 强 化 问 句 表示 中 的 疑问 词语 义 信息 ， 并 将 
分 类 规则 。 对 于 同样 的 问题 , Feng 等 人 Do 使 用 共享 卷 积 神经 网 。 疑问 词 注意 力矩 阵 输入 卷 积 层 提取 局 部 特征 ， 其 次 ， 模 型 使 用 
络 来 训练 问题 答案 对 ， 并 在 此 基础 上 进行 了 语义 相似 度 计算 。 注意 力矩 阵 来 筛选 对 问题 分 类 最 有 用 的 卷 积 特征 ， 输 送 给 双向 
这 些 方法 使 用 了 卷 积 神经 网 络 来 解决 问题 分 类 任务 ， 能 够 较 好 ”长 短 时 记忆 模型 层 进行 高 层次 时 序 特 征 抽 取 ; 最后， 将 融合 后 
地 捕捉 从 数据 本 身 到 高 层 语义 的 复杂 映射 ， 具 有 远 超 于 传统 机 ”的 特征 向 量 加 入 到 Softmax 分 类 器 中 完成 问题 分 类 任务 。 模 型 
器 学 习 模 型 的 表达 能 力 。 但 是 这 些 方法 的 参数 复杂 且 没 有 考虑 。 结构 如 图 1 所 示 。 
文本 语 料 的 时 序 特征 。 针 对 这 一 问题 ， 有 一 些 学 者 开始 使 用 长 ”2.1 基于 疑问 词 注意 力 机 制 的 输入 表示 
短 时 记忆 模型 来 处 理 问 句 这 种 序列 数据 。 长 短 时 记忆 模型 是 一 与 普通 文本 分 类 不 同 ， 问 名 的 类 型 判别 更 加 依赖 于 疑问 词 
种 特殊 的 循环 神经 网 络 改进 结构 ， 能 够 解决 原 模型 梯度 消失 和  ” 这 一 分 类 特征 。 这 是 由 于 问题 文本 较 短 、 语 义 信息 和 词语 共 现 
长 距离 依赖 的 问题 (HJ。Wang 等 人 03 基 于 多 层 长 短 时 记忆 网 络 言 息 不 是 ， 所 以 问 句 中 的 疑问 词 对 问题 分 类 的 结果 影响 较 大 。 
模型 训练 问答 对 的 联合 特征 向 量 ， 把 问答 匹配 问题 转换 为 分 类 ”而 深度 学 习 模 型 一 般 使 用 的 词 向 量 并 没有 对 疑问 词 信息 进行 了 
或 排序 问题 。 此 外 ， 考 虑 到 卷 积 神经 网 络 和 长 短 时 记忆 模型 各 ”点 关注 。 针 对 该 问题 ， 本 文 提 出 了 一 种 基于 疑问 词 的 注意 力 忆 
自 对 文本 建 模 的 优点 ,Zhou 等 人 将 两 种 模型 相 结 合 提 出 了 一 。” 制 ,通过 构建 疑问 词典 ,将 词 向 量 与 疑问 词 对 角 关 注 矩 阵 组 合 ， 
种 新 颖 的 组 合 模型 (C-LSTM )， 并 指出 卷 积 神经 网 络 和 长 短 时 使 模型 有 能 力 确定 哪 一 部 分 句子 对 疑问 词 最 有 影响 力 。 有 具体 方 
记忆 模型 提供 了 互补 的 信息 ， 该 模型 在 情感 分 类 和 问题 分 类 两 ”法 为 : 收集 汉语 问 句 中 的 疑问 词 建立 疑问 词典 , 如 “ 谁 “* 哪 里 ” 
个 任务 中 都 取得 了 优良 的 表现 。 “多 少 ” 等 都 属于 疑问 词 ， 然 后 对 问 句 分 词 后 查找 疑问 词典 ， 
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找到 问 句 中 的 疑问 词 。; 随后 以 词 为 单位 训练 词 向 量 W,; 最 后 
引入 对 角 关注 矩阵 y 来 表征 句子 中 普通 词语 we W， 与 疑问 


词 e 之 间 的 语 境 相关 性 和 连接 强度 。 其 元 素 A 的 计算 公式 如 下 : 


A =f (ew): B Q) 
其 中 : 疑问 词 。 通过 本 文 构造 的 疑问 词典 ， 扫 描 问 名 分词 序列 
得 到 ， 函 数 了 为 词 向 量 的 内 积 运 算 ，8 为 参数 向 量 ， 并 且 在 训 
练 过程 期 间 通过 反 向 传播 被 新 。 同 时 对 于 每 一 个 对 角 关 注 矩 阵 
元 素 4 ENX: 


di na 2) 

之 -exp(4) 
来 表示 第 ;个 普通 词 w 与 疑问 词 。 之 间 的 相对 重要 程度 ， 并 在 
此 基础 上 构造 基于 注意 力 机 制 的 疑问 词 向 量 ， 
oe G) 
模型 输入 表示 层 的 最 终结 果 是 基于 注意 力 机 制 的 疑问 词 向 
量 排列 矩阵 : 


X=[X,,X,,.°°5X, | (4) 
其 中 : EPER pon, 1 为 词 向 量 的 维度 ，n 是 问 名 长度 ; 
去 号 代表 行 矢量 级 连接 。 图 2 描述 了 基于 注意 力 机 制 的 疑问 词 


Softmax | 
注意 力 时 序 | 
特征 抽取 
| Sotfnax (6) 
: WN 
转 置 重 排 ”二 
EN 特征 图 C 
卷 积 运算 
特征 抽取 
疑问 词 注意 
HABER X 
疑问 词 注意 | 
DRAIN 2008 年 a 是 g 
2008 年 奥运 会 最 佳 男子 运动 员 是 谁 ? 
图 1 基于 MAC-LSTM 的 问题 分 类 模型 
Fig.l Question classification model based on MAC-LSTM 


AY IEF, 


图 2 ke Pa) tea fa) EE ak E EE 


Fig.2 Interrogative word embedding attention matrix 
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2.2 通过 卷 积 运算 进行 特征 抽取 

卷 积 神经 网 络 能 够 通过 卷 积 运算 从 原始 数据 中 抽取 局 部 特 
征 。 本 文 使 用 4g 个 相同 大 小 的 一 维 滤波 器 在 疑问 词 向 量 序列 上 
滑动 ， 以 提取 不 同位 置 的 文本 特征 ， 得 到 疑问 词语 义 依存 关系 
特征 映射 ,一 维 滤波 器 表示 为 m e R™ ， 其 中 大 为 滤波 器 的 宽度 。 
此 时 ， 句 子 中 的 第 ;个 词语 对 应 的 窗口 矩阵 w 由 大 个 一 维 向 量 
组 成 : 


| (5) 

其 中 : 逗号 代表 行 矢量 级 连接 。 卷 积 滤波 器 m 与 每 个 位 置 处 的 

窗口 矩阵 (k-gram) 卷 积 运算 生成 特征 映射 ce R"-r*1， 这 里 特征 

射 每 个 元 素 c ,的 计算 公式 定义 如 

c,=f(W,*mt+b) (6) 

其 中 : * 为 元 素 乘 法 ; p 为 偏差 项 。 相关 研究 表明 ReLU 具有 单 

侧 抑制 性 和 相对 宽阔 的 兴奋 边界 ， 并 通过 引入 网 络 稀 玻 性 从 而 

获得 更 快 的 特征 学 习 速 率 中 。 本 文 非 线 性 激活 函数 和 选择 
ReLU， 公 式 如 式 (7) 所 示 。 

P(x) =max(0,x) 0) 

为 保留 原文 数据 的 时 序 性 特征 ， 对 于 d 个 具有 相同 长 度 的 

特征 映射 c, 将 其 转 置 重 排 为 对 应 与 每 个 窗口 矩阵 w, 的 特征 表 


$ Bi 


E=[c;c;…;c,] (8) 
其 中 : 分 号 表示 列 向 量 的 连接 ，c 是 使 用 第 ;个 滤波 器 生成 的 特 
IENE. pepo 的 每 列 E, 是 原 问 题 文本 位 置 j 处 窗口 
向 量 的 新 特征 表示 形式 。 
2.3 基于 注意 力 机 制 的 时 序 特征 抽取 
对 于 问题 分 类 任务 ， 问 题 的 分 类 规则 依赖 于 前 向 和 后 向 的 
上 下 文 信息 ， 因 此 本 文 将 卷 积 层 提取 的 窗口 映射 输入 给 双向 长 


短 时 记忆 模型 进一步 提取 文本 时 序 特征 。 双 向 长 短 时 记忆 模型 
Raa MUN 3 所 示 。 


4] 3 双向 长 短 时 记忆 模型 结构 
Fig.3 Bidirectional LSTM 
图 3 中 ， 方 框 表 示 长 短 时 记忆 单元 : 天 为 前 向 长 短 时 记忆 
模型 在 7 时 刻 的 输出 : 方 为 后 向 长 短 时 记忆 模型 在 时 刻 的 输 
出 。 通 过 串 接 操作 将 前 向 序列 和 后 向 序列 的 输出 进行 合并 ， 即 
可 得 到 文本 的 上 下 文 语义 表示 。 
为 了 让 整体 模型 在 句子 层面 有 能 力 自 动 识别 句子 中 对 问题 
分 类 最 相关 的 部 分 ， 本 文 提 出 了 一 种 基于 注意 力 机 制 的 连接 模 
式 来 连接 卷 积 层 与 长 短 时 记忆 模型 。 具 体 做 法 为 : 对 卷 积 特征 
构造 加 权 注 意 力 矩阵 G, 来 比较 卷 积 特征 的 重要 性 。 通过 不 同 的 
权 值 大 小 反映 语义 重要 性 的 大 小 ， 对 更 重要 的 句子 部 分 进行 重 
点 关注 ， 同 时 减少 了 特征 提取 过 程 中 的 信息 丢失 和 信息 元 余 。 
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注意 力矩 阵 计算 方式 如 下 : 


A’ =tanh(U -E, +b) (9) 
其 中 : y 是 神经 网 络 学 习 的 加 权 参 数 和 矩阵 ;5b 表示 注意 力 机 制 
的 线性 偏差 。 AS NE, 对 问题 分 类 的 重要 程度 函数 ， 进 一 步 对 
其 归 一 化 处 理 : 
ER (10) 
exp (4) 


最 后 , 将 这 个 注意 力矩 阵 与 卷 积 层 的 输出 E, R, 把 向 量 
G, 表示 对 分 类 结果 重要 的 部 分 并 作为 双向 长 短 时 记忆 模型 的 
输入 。 


(11) 


经 过 双向 长 短 时 记忆 模型 的 时 序 语义 建 模 ， 最 后 将 隐 
的 输出 向 量 作为 Softmax 分 类 器 的 输入 , 从 全 局 角度 对 特征 
行 分 析 ， 进 而 完成 问题 模型 的 分 类 任务 。 


3 ”实验 与 分 析 


为 了 验证 本 文 模型 的 有 效 性 ， 解 决 问题 分 类 任务 ， 本 文 将 
在 不 同 的 中 文 短文 本 数据 集 上 进行 对 比 实验 。 实 验 环境 为 如 表 
1 所 示 。 
为 进行 对 比 实验 ， 本 文采 用 与 Zhou 等 人 03 相 同 的 词 
训练 配置 , 使 用 word2vec 的 skip-gram 训练 模式 ， 上 下 文 窗 


fly 
z 


O 
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2016) QA 评测 的 问题 集 共 9 604 条 数据 
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测 的 问题 集 共 9518 条 数据 ”, TE 


有 25327 条 数据 。 划 


QA 提供 的 公开 数据 集 格式 清晰 、 


质量 


题 与 答案 对 ， 所 


以 本 文 对 该 数据 进行 了 人 工 标注 


工作 。 


Thy 


>» NLPCC 2017 QA 评 
中 NLPCC 


高 ， 但 数据 集中 只 有 问 


在 本 任 


务 中 ， 每 个 问题 都 


3 人 独立 标注 


Es 对 于 


据 库 最 后 协商 标注 。 
本 文 将 各 数据 集 大 致 按照 20% 的 上 


有 异议 的 数据 存储 数 
同时 ， 为 排除 数据 集 里 偶然 误差 的 干扰 ， 
上 例 随 机 划分 训练 集 与 测试 集 。 


表 2 分 类 体系 
Table 2 Category system 
大 类 代表 例子 
描述 类 (DES) 万 达 广 场 主要 经 营 的 是 什么 生意 ? 
人 物 类 (HUM) 《机 械 设 计 基 础 》 这 本 书 的 作者 是 谁 ? 


地 点 类 (LOC) 


安 德 烈 是 哪个 国家 的 人 呢 ? 


数字 类 (NUM) 合肥 地 铁 一 号 线 总 投资 额 是 多 少 ? 
时 间 类 (TIME) 华 严 寺 何 时 建造 的 ? 
实体 类 (OBJ) 中 国 第 二 大 民族 是 什么 族 ? 


大 小 设置 为 S， 词 向 量 维度 大 小 设 为 100， 得 到 原始 短文 本 的 
输入 表示 即 词 组 映射 矩阵 o 
表 1 实验 环境 及 配置 
Table 1 Experimental environment and configuration 
实验 环境 环境 配置 
操作 系统 Windows10 企业 版 
CPU Inter Core 15-6500 3.2GHz 
GPU NVIDIA GeForce GTX 1070 
内 存 16G 
编程 语言 Java 
分 词 工 ICTCLAS 2016 
深度 学 习 框 架 DeepLearning4J 
此 外 ， 问 题 分 类 体系 的 构建 是 问题 分 类 的 前 提 PI。 对 于 英 


文 问题 分 类 ， 各 机 构 往往 对 TREC QA 标准 数据 集 采用 UIUC 
分 类 体系 , 将 问题 分 为 ABBR、DESC、ENTY、HUM、LOC 和 
NUM WK. 而 中 文 问题 分 类 没有 统一 的 分 类 体系 , 被 大 多 数 
学 者 采用 的 是 哈尔滨 工业 大 学 信息 检索 和 社会 计算 中 心 所 提出 
的 分 类 体系 , 它 根据 汉语 的 特点 提出 包括 描述 类 (DES)、 人 物 
类 (HUM)、 地 点 类 (LOC)、 数字 类 (NUM), 时 间 类 (TIME)、 
实体 类 (OBJ) 六 个 大 类 ， 每 个 大 类 及 其 实例 如 表 2 所 示 。 

3.1 数据 集 的 选择 与 处 理 

本 文选 用 的 数据 集 分 为 三 个 部 分 : 百度 实验 室 数 据 集 6 205 
条 数据 "CCF 国际 自然 语言 处 理 与 中 文 计算 会 议 2016(NLPCC 


3.2 ”对 比 实验 设置 
本 文 提 出 的 MAC-LSTM #2 


型 通过 多 层级 注意 力 机 制 将 卷 


积 神经 网 络 与 长 短 时 记忆 模型 相 结 合 ， 针 对 问题 分 类 任务 对 疑 


为 验证 模型 的 有 效 性 ， 本 文 设置 多 种 模型 


问 词 特征 重点 关注 。 
方法 在 两 种 数据 集 上 进行 对 比 实验 . 


a)SVM。 基于 Li 等 人 中 提出 


的 使 


型 ， 采 用 词 袋 模型 进行 文本 表示 ， 
进行 权重 计算 ， 

b) CNN. I 
RB. Wie 


以 及 全 连接 层 组 成 。 


于 处 


d) C-LSTM. Zhou 
型 相 结 合 ， 由 卷 积 层 提 出 特 和 
了 新 颖 的 向 量 重 排 模式 。 


增加 了 基于 注意 力 机 制 的 疑问 词 和 
E 够 自 适应 的 识别 句子 中 最 
实验 结果 与 分 析 

通过 与 不 同 模型 对 比 来 验证 


Im 


c) LSTM。 文献 [10] 提 出 的 一 种 双 
时 和 预测 时 间 序 列 中 间隔 和 延迟 相对 较 长 的 文本 序列 。 

经 网 络 与 长 短 时 记忆 模 
E 后 输入 给 长 短 时 记忆 模型 ， 


等 人 0 将 卷 积 神 


e) MCA-LSTM。 本 文 提 出 的 模型 ， 


向 长 短 时 记忆 模型 


线性 核 函数 的 SVM 模 
并 运用 TF-IDF 算法 对 单词 
是 效果 较 好 的 传统 分 类 模型 。 

Kim 国 提 出 的 基础 卷 积 神经 网 络 模型 ， 


由 卷 积 


,适合 


在 C-LSTM 的 基础 上 
E 阵 输入 和 连接 层 注意 力矩 阵 ， 
要 的 部 分 。 


YZ 


NH 


MAC-LSTM 模型 在 短文 本 


分 类 中 的 适用 性 和 优越 性 ,本 文 在 
实验 结果 如 表 3 所 示 。 


不 同 数据 集 进行 了 对 比 实验 。 


表 3 不 同 模型 准确 率 对 比 


Table 3 Comparison of evaluation scores 


模型 Bidu 
SVM 76.69% 
CNN 89.14% 
LSTM 90.82% 
C-LSTM 92.65% 
MAC-LSTM 94.31% 
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从 表 3 RA, 由 于 不 同 数据 集 各 大 类 数据 的 数量 分 布 不 同 ， 注意 力 机 制 的 有 效 性 和 稳定 性 。 实 验 结果 如 图 5 所 示 。 从 图 中 


各 模型 精确 度 有 不 同 程度 的 波动 ,但 并 不 影响 各 模型 对 比 参照 。 


本 文 画 出 直方 图 直观 的 展示 几 类 模型 在 不 同 数据 集 上 的 精度 对 
比 ，MAC-LSTM 在 三 个 数据 集 上 都 表现 出 较 好 的 优势 。 


3 baidu 
NLPCC2016 
0.95) mmm NLPCC2017 
0.90 4 
人 0.85 
0.80 
0.754 
0.70 5 
SVM CNN LSTM C-LSTM MAC-LSTM 
图 4 模型 三 个 数据 集 上 的 精度 对 比 
Fig.4 Comparison of different database 
图 4 展示 了 本 文 的 模型 结果 优 于 高 度 人 工 设 计 特 征 的 传统 


模型 SVM， 人工 设计 特征 需要 大 量 的 人 力 劳动 , 不 能 很 好 地 推 


广 其 他 数据 集 和 任务 。 本 文 提出 的 MAC-LSTM 模型 


有 自动 


可 以 看 出 ， 当 向 量 维度 大 小 变化 时 ， 模 型 准确 率 在 开始 时 会 增 
加 ; 当 维 度 大 小 超过 50 之 后 变 得 稳定 。 本 文 最 终 选择 100 作为 
句 量 维度 ， 在 兼顾 到 计算 简单 的 情况 下 能 得 到 相对 好 的 实验 结 


4 ”结束 语 


本 文 从 问题 分 类 的 角度 出 发 ， 分 析 了 传统 方法 的 不 足 之 处 
以 及 深度 学 习 在 本 领域 相关 的 应 用 ， 同 时 结合 了 注意 力 机 制 对 
深度 学 习 模 型 进行 改进 ， 本 文 提出 了 一 种 多 层次 注意 力 深度 学 


习 模 型 。 首 先 应 用 注意 力 机 制 加 强 了 模型 对 疑问 词 的 特征 的 关 
注 度 ; 然后 将 卷 积 神经 网 络 与 长 短 时 记忆 模型 通过 注意 力 连 接 


模式 有 效 结合 ， 同 时 发 挥 两 类 模型 对 问题 分 类 的 优势 。MAC- 
LSTM 模型 能 够 通过 卷 积 运 算 学 习 疑 问 词 向 量 的 短语 级 特征 ， 
然后 将 特征 表示 输送 到 长 短 时 记忆 模型 中 以 增强 捕捉 文本 时 序 
依赖 特征 的 能 力 。 本 文 使 用 MAC-LSTM 模型 对 问题 类 型 分 类 
任务 进行 了 评估 实验 ， 取 得 了 满意 的 结果 。 当 前 问题 分 类 任务 
面临 着 缺少 语 料 的 问题 ， 除 了 继续 搜集 和 标注 新 的 数据 这 个 思 


学 习 语义 句子 表示 的 能 力 ， 不 需要 任何 人 工 抽 取 特 征 具有 更 好 


的 可 扩展 性 ; 


将 单个 卷 积 神经 网 络 和 长 短 时 记忆 模型 的 结果 与 


相 比 ， 卷 积 神经 网 络 在 NLPCC 数据 集 精确 度 更 高 ， 
本 较 短 且 数 据 量 充足 的 情况 下 卷 积 运算 更 能 有 效 抽取 文本 特征 ; 
将 C-LSTM 与 本 文 提出 的 MAC-LSTM 与 单一 的 卷 积 让 


表明 在 文 


经 网 络 


路 之 外 ， 如 何 利用 大 量 未 标记 的 语 料 进 行 半 监 督学 习 也 是 一 条 
可 行 的 方向 。 此 外 ， 问 题 分 类 是 问答 系统 的 基础 研究 之 一 ， 问 


题 分 类 结果 的 好 坏 会 影响 问答 系统 答案 抽取 与 回答 生成 策略 地 
选择 ， 所 以 答案 抽取 与 问题 分 类 相 结 合 方面 的 研究 也 将 是 下 一 
步 研究 的 重点 。 
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Fig.5 Comparison of different embedding dimensions 


本 文 在 C-LSTM 研究 的 基础 上 提出 了 疑问 词 注 
通过 构建 疑问 词 向 量 强化 模型 对 
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